[AWS Black Belt Online Seminar] Amazon AI 入門 レポート
こんにちは、菊池です。
2017年3月29日(水)のAWS Black Belt Online Seminarを受講しましたので、レポートします。
今回は Amazon AI 入門 ということで、昨年末のre:inventで発表された3つのAIサービスの紹介です。講師はAWSJソリューションアーキテクトの川村誠さんでした。
発表スライドは以下です。
レポート
アジェンダは以下の通りでした。
- Amazon AI
- Amazon Polly
- Amazon Rekognition
- Amazon Lex
- まとめ
Amazon AI
- AI Services
- APIで簡単にAIが利用できるので、サービスの開発に集中できる
- Amazon Polly
- Amazon Rekognition
- Amazon Lex
- AI Platforms
- Amazon Machine Learning
- Amazon EMR
- AI Engines
- GPUやFPGAを利用可能なインスタンスも
- Deep Learningを利用した3つの新サービス
- Amazon Polly:文章を音声に変換するサービス
- Amazon Rekognition:画像認識機能をアプリケーションに簡単に追加
- Amazon Lex:声/テキストを使用した会話型インターフェース
Amazon Polly
概要
- テキストをリアルな音声に変換
- 24の言語、47の声優の音声を提供
- 低レイテンシで高速、リアルタイムシステムを構築する選択肢に
- 生成した音声の保存/リプレイ/配信が可能
- 日本語対応
- Pollyの品質
- 3つの観点で品質を確保
- 自然に聞こえる音声:どれくらい人間の声に近いか
- 変換処理の正確さ:数字や略語、同じ綴りで発音が異なる語彙などを解釈する能力
- 高度なわかりやすさ:どれくらいわかりやすいか(ex. 庭には二羽のニワトリがいる)
Text to Speech処理
- テキスト処理
- 単語を認識
- 音素に変換
- 発音記号割り当て
- 韻律曲線
- ユニットの選択と適用
- ストリーミング
仕組み
- APIを呼び出しで指定
- 声(TTS)
- 出力形式(MP3/Ogg Vorbis形式/PCM)
- SSMLとレキシコンを使うことでより柔軟な合成音声を実現
- SSML(Speech Synthesis Markup Language)v1.1
- タグを指定することで、発音、ボリューム、速度などをカスタマイズ
- レキシコン(Pronounciation Lexicon Specification (PLS)) v1.0
- 単語とフレーズのパッピングや、一般的でない発音を定義しカスタマイズ
- Ex. W3C -> World Wide Web Consortium
Pollyの制限事項
- 入力テキストサイズ:最大1500課金対象文字(SSMLタグは除く)、合計3000文字
- レキシコン:入力テキストに最大5個
- 出力オーディオストリーム:最大5分(超過時は切り取られる)
価格とリージョン
- $4.0/100万文字
- 生成した音声ファイルを保存しえおき、再利用する際は課金されない
- 無料枠あり:最初のリクエストから12ヶ月、1月あたり500万文字まで
- リージョン
- US East(N. Virginia/Ohio)
- US West(Oregon)
- EU(Ireland)
Amazon Rekognition
- 深層学習(ディープラーニング)による画像認識
- 画像分析機能をアプリケーションに簡単に追加
機能
- 物体とシーンの検出
- 顔分析
- 顔照合
- 顔認識
- 物体とシーンの検出:DetectLabels API
- 画像から認識した物体(車/ペット/家具など)にラベルを付け、信頼スコアを取得
- ユースケース:不動産物件の検索
- 顔分析:DetectFaces API
- 画像内の顔の位置を検出し顔属性(感情、ポーズ、瞳が開いているかなど)を分析
- ユースケース:店舗内の顧客印象分析
- 顔照合(比較):CompareFaces API
- 2つの画像の顔が同一人物である可能性を測定
- ユースケース:従業員の認証
- 顔認識:IndexFaces/SearchFacesByImage API
- 大規模な顔コレクションの中から似た顔を見つけ、画像内にいる人物を識別
- ユースケース:友人の顔を見つける
- Lambdaによるブループリントの提供
Rekognitionの制限事項
- S3に保存されている参照画像の最大サイズは15MB、最小は80ピクセル(高さ・幅)
- APIのパラメータとして引き渡し可能な素画像サイズの最大は5MB
- フォーマットはPNGとJPEG
- 1人の顔の画像コレクションの最大数は100万件
- 顔画像検索最大数は4096件
価格とリージョン
- 1ヶ月あたり画像処理100万枚まで:$1.00/1,000枚
- 1ヶ月あたり画像処理100万枚超1,000万枚まで:$0.80/1,000枚
- 1ヶ月あたり画像処理1,000万枚超1億枚まで:$0.60/1,000枚
- 1ヶ月あたり画像処理1億枚超:$0.40/1,000枚
- 顔メタストレージ:1ヶ月あたりに保存される顔メタデータ$0.01/1,000件
※ 各APIで1枚以上の入力画像を受信した場合に画像処理1枚とカウント
- 無料枠:最初の12ヶ月、5,000枚/月の画像分析と1,000件/月の顔メタデータ保存
- リージョン
- US East(N. Virginia/Ohio)
- US West(Oregon)
- EU(Ireland)
Amazon Lex
概要
- 音声やテキストを利用して任意のアプリケーションに対話型インターフェース(bot)を構築
- AWSプラットフォームのセキュリティ、モニタリング、ユーザー認証、ビジネスロジック、ストレージ、モバイルアプリケーション開発を実現するスイート
- 現時点ではlimited Previewのサービスなので、利用にはプレビュープログラムへのサインアップが必要
特徴
- 高度な深層学習に基づく、音声をテキストに変換するための自動音声認識(ASR)とテキストの意図を理解するための(NLU)を利用可能
- モバイル、ウェブアプリ、およびFacebook Messenger(SlackとTwilioとは近日中に統合予定)などのチャットサービスに簡単にパブリッシュ
- 開発者向けにデザインされており、効率的で直感的なツールを提供
- バージョン管理とバージョンに対するalias設定機能を提供
- エンタープライズシステムに接続可能なコネクタを統合
仕組み
- Intents:ユーザの入力に応答してfulfillmentを実行
- Utterances:intentを発動する入力フレーズ
- Slots:intentを満たすための入力データ
- Prompt:slotを引き出すためのフレーズ
- Fulfillment:intentを実現するビジネスロジック
ユースケース
- 情報ボット
- 患者向け診察予約ボット
価格とリージョン
- $0.004/音声リクエスト
- $0.00075/テキストリクエスト
- サービス提供リージョン
- US East(N. Virginia) Limited Preview
まとめ
- DeepLearningを利用した3つのAIサービス
- Polly
- Rekognition
- Lex
- 参考情報
今後のオンラインセミナー
来月からは新年度ということで、EC2、VPC、S3といったAWSの基本サービスが主体となるようです。
最後に
以上です。
今回は昨年末のre:inventで発表された3つのAIサービスの紹介でした。これらのサービスを使うことで、DeepLearningやAIの専門知識がなくても、簡単にそれらを利用したアプリケーション/サービスを構築することができそうです。
Black Beltオンラインセミナーは、サービスの特徴や使い方を体系的に解説してくれますので、新しいサービスを素早く理解するのに非常に助かります。